在线教程丨仅需极少数据,MediCLIP 在异常检测与定位任务刷新 SOTA
在临床诊疗过程中,医学影像技术(如 X 光、 CT 、 B 超等)是医生诊断的重要依据。当患者完成影像检查后,通常需要由放射科或超声科医生对影像进行专业判读,通过识别异常征象、定位病变区域并撰写诊断报告,为临床决策提供关键支持。
在临床诊疗过程中,医学影像技术(如 X 光、 CT 、 B 超等)是医生诊断的重要依据。当患者完成影像检查后,通常需要由放射科或超声科医生对影像进行专业判读,通过识别异常征象、定位病变区域并撰写诊断报告,为临床决策提供关键支持。
智谱基于GLM-4.5打造的开源多模态视觉推理模型GLM-4.5V,在42个公开榜单中41项夺得SOTA!其功能涵盖图像、视频、文档理解、Grounding、地图定位、空间关系推理、UI转Code等。
智谱基于GLM-4.5打造的开源多模态视觉推理模型GLM-4.5V,在42个公开榜单中41项夺得SOTA!其功能涵盖图像、视频、文档理解、Grounding、地图定位、空间关系推理、UI转Code等。
通义模型家族,刚刚又双叒开源了,这次是Qwen-Image——一个200亿参数、采用MMDiT架构的图像生成模型。
在 AI 技术高速发展的今天,「让机器真正理解世界」的需求从未如此迫切。无论是电商平台的跨模态搜索、智能助手的多轮对话,还是内容平台的精准推荐,底层都依赖一个关键能力——将文本、图像、视频等不同形态的信息,转化为计算机可理解的「向量」,并通过向量间的关联实现高
完全异步的 rollout 系统:实现了一个具备扩展性、类 Gym 接口的全异步 rollout 系统。基于服务端架构,该系统能够高效并行协调智能体的轨迹生成、环境交互与奖励计算。相较于同步系统,这一设计通过消除资源空转时间显著提升了运行效率。回合级局部回放(
在信息爆炸的时代,推荐系统已成为我们获取资讯、商品和服务的核心入口。无论是电商平台的 “猜你喜欢”,还是内容应用的信息流,背后都离不开推荐算法的默默耕耘。然而,传统的推荐系统普遍采用多阶段范式(如召回、排序),这种设计虽然在工程上实现了效率,却常常面临阶段间信
Kimi-Dev-72B的设计核心是BugFixer和TestWriter两种角色的结合,BugFixer和TestWriter都遵循一个共同的最小框架,包含两个阶段:
在该模型发布的前几个小时,Mistral AI的CEO Arthur Mensch在接受炉边访谈时声称即将发布的Magistral能够与其他所有竞争对手相抗衡。
在MMLU、CEval、MATH500、HumanEval等基准测试中,以仅22%的训练开销,性能比肩 Qwen-3-8B,超越Gemma-3-12B。
明敏 发自 凹非寺量子位 | 公众号 QbitAIQwen3深夜上新,Embedding系列全新登场!它专为文本表征、检索与排序任务设计,旨在将文本(如句子、段落)转换为高质量的向量表示,以便在语义搜索、问答系统、推荐引擎等应用中更有效地处理和理解自然语言。可
作为 AReaL 里程碑版本 AReaL-boba 的重磅升级,AReaL-boba² (正式全名:A-ReaL-double-boba) 坚持 boba 系列 “全面开源、极速训练、深度可定制” 的开发理念,再次加量:除了更全的功能和更详细的文档说明,更以全
作为 AReaL 里程碑版本 AReaL-boba 的重磅升级,AReaL-boba² (正式全名:A-ReaL-double-boba) 坚持 boba 系列 “全面开源、极速训练、深度可定制” 的开发理念,再次加量:除了更全的功能和更详细的文档说明,更以全
针对这个问题,现在,来自南洋理工大学和新加坡A*STAR前沿人工智能研究中心等机构的研究人员,提出了一种全新的局部鲁棒图像水印方法——MaskMark。
本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。游泽彬和聂燊是中国人民大学高瓴人工智能学院的博士生,导师为李崇轩副教授。该研究基于团队前期发布的、首个性能比肩 LLaMA 3 的 8B 扩散大语言模型LLaDA。
本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。游泽彬和聂燊是中国人民大学高瓴人工智能学院的博士生,导师为李崇轩副教授。该研究基于团队前期发布的、首个性能比肩 LLaMA 3 的 8B 扩散大语言模型 LLaDA。
把模型最后一部分换成简单的线性层,其他部分全部保持原样不动;然后只训练这个新加的线性层,通过它的表现来判断模型之前学到的特征好不好用。
作为一个评估Agent解决实际问题能力的基准,它包括450个问题,这些问题需要不同级别的工具支持和自主能力,为此它还划分了三个Level水平。
文章提出了一种名为MeanFlow的单步生成建模框架,通过引入平均速度(average velocity)的概念来改进现有的流匹配方法,并在 ImageNet 256×256 数据集上取得了显著优于以往单步扩散 / 流模型的结果,FID 分数达到 3.43,且
检索增强技术在代码及多模态场景中的发挥着重要作用,而向量模型是检索增强体系中的重要组成部分。针对这一需求,近日,智源研究院联合多所高校研发了三款向量模型,包括代码向量模型 BGE-Code-v1,多模态向量模型 BGE-VL-v1.5 以及视觉化文档向量模型